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大 数据 :微生物 组 学 义 其 他 生物 医学 领域 的 机 遇 与 挑战 
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摘要 : 随 着 高 通 量 技 术 的 发 展 ,生物 数据 大 爆发 式 地 增长 。 如 何 有 效 地 利用 生物 大 数据 成 为 现代 生物 学 的 机 遇 和 挑战 。 大 数据 


和 传统 数据 相 比 ,呈现 出 很 多 不 同 的 特点 ,包括 常 被 提 到 的 3 个 v (volume, variety, velocity 即 数据 量 的 巨大 数据 类 型 的 多 样 和 


数据 采集 和 处 理 的 快速 )。 本 文 针对 生物 医学 研究 ,详细 介绍 了 大 数据 的 杂乱 性 .可 重复 利用 性 .开放 性 等 几 个 特点 。 同 时 结合 
微生物 组 学 在 元 分 析 方 面 的 最 新 进展 ,并 用 实例 来 前 述 了 我 们 在 大 数据 采集 方面 应 该 有 前 脆性 的 考虑 ,提出 了 在 数据 管理 上 如 


何 保护 隐私 的 挑战 ,探讨 了 对 大 数据 进行 分 析 的 工具 和 方法 。 
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Abstract: With the development of high-throughput technologies, biomedical data has been increasing exponentially in an 
explosive manner. This brings enormous opportunities and challenges to biomedical researchers on how to effectively utilize 


big data. Big data is different from traditional data in many ways, described as “3Vs” - volume, variety and velocity. From the 
perspective of biomedical research, here I introduced the characteristics of big data, such as its messiness, re-usage and 
openness. Focusing on microbiome research of meta-analysis, the author discussed the prospective principles in data 


collection, challenges of privacy protection in data management, and the scalable tools in data analysis with examples from 


real life 
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随 着 信息 化 时 代 的 到 来 ,我 们 在 生活 的 方方面面 都 
积累 了 大 量 的 数据 。 所 谓 大 数据 (Big Data) ,不 仅仅 是 
言 息 量 的 巨大 ,同时 也 是 信息 的 复杂 性 和 多 样 性 。 相 对 
于 传统 的 抽样 数据 ,在 信息 时 代 以 前 ,由 于 采样 的 困难 、 
计算 机 技术 或 者 分 析 手 段 的 限制 ,我 们 通常 无 法 收集 每 
个 个 体 的 数据 ,只 能 在 总 体 (population) 里 进行 抽样 
(sampling) ,通过 分 析 这 些 样本 ,进而 推测 总 体 的 特 
征 。 在 大 数据 时 代 , 我 们 往往 把 所 有 个 体 的 各 方面 的 信 
息 都 进行 收集 整合 ,得 出 意 想 不 到 的 结论 。 大 数据 分 析 
已 经 广泛 应 用 于 许多 商业 、 社 会 科学 和 自然 科学 领域 。 
例如 ,通过 记录 顾客 以 往 购买 的 产品 和 浏览 的 网 页 ,其 
至 是 浏览 者 鼠标 指 癌 的 产品 链接 ,亚马逊 能 够 推测 浏览 
者 可 能 感 兴趣 的 产品 ,并 推荐 给 消费 者 。 众 所 周知 ,情绪 
是 可 以 通过 人 与 人 的 接触 (行为 .表情 言语 ) 互 相传 染 ， 
但 最 近 研 究 通过 分 析 Facebook 上 面 海量 的 数据 ,发现 
即使 在 互联 网 上 ,情绪 也 可 以 通过 社交 媒体 传播 开 来 。 
收 稿 日 期 :2015-01-08 
作者 简介 : 徐 振江 ,University of Rochester 获 得 博 十 学 位 , 现 于 美国 科 罗 
拉 多 大 学 进行 博士 后 工作 。 开 发 RNA 的 结构 预测 的 新 算法 ,并 结合 机 器 
学 习 和 ncRNA 结 构 ,预测 人 基因 组 和 微生物 基因 组 中 的 新 ncRNA。 结 合 
计算 机 与 微生物 组 学 分 析 人 体 和 环境 微生物 群落 ,发现 microbial 
signature, 用 于 医学 临床 检测 和 治疗 。 近 3 年 来 , 共 发 表 SCI 论 文 12 篇 


在 生物 医学 方面 , 随 着 高 通 量 技 术 的 开发 ,例如 
microarray ,新 一 代 质 谱 和 测序 平台 的 出 现 , 我 们 能 够 方 
便 地 获取 大 量 的 各 种 组 学 (omics) 的 数据 ,使 得 各 大 数 
据 库 呈 指数 级 的 增长 。 许 多 国际 合作 项 目 , 比 如 千 人 基 
因 组 计划 (The 1000 Genomes Project)2 ,癌症 基因 组 图 
谱 (The Cancer Genome Atlas, TCGA))”, 人 类 微生物 组 
计划 (Human Microbiome Project, HMP)* ,人 类 肠 道 
宏基 因 组 计划 (Metagenomics of the Human Intestinal 
Tract consortium, MetaHIT)6 都 产生 了 大 量 的 数据 ,再 
也 不 局 限 在 几 个 蛋白 分 子 或 几 段 DNA 序 列 之 内 。 那 
么 ,这 些 大 数据 都 有 什么 特点 ? 它 能 给 生物 医学 研究 带 
来 什么 帮助 ? 我 们 应 该 如 何 采集 ,管理 .分 析 生 物 大 数 
据 ? 本 文 将 尝试 着 一 一 回答 这 些 问题 。 


1 重复 利用 性 

在 大 数据 时 代 , 一 组 数据 常常 可 以 在 不 同 的 场合 
重复 利用 。 在 微生物 组 学 的 研究 中 ,有 不 少 关于 炎症 性 
肠 病 (IBD) 或 者 肥胖 症 和 上 肠 道 微生物 之 间 相 关 性 的 报 
道 ,后 续 的 研究 者 就 可 以 把 所 有 这 些 报道 的 数据 整合 起 
来 做 元 分 析 (meta-analysis) ,从 而 发 现 其 中 的 共同 特 
征 , 弥 补 单个 研究 中 由 于 数据 不 足 或 者 偏差 而 可 能 得 出 
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的 缺乏 普 适 性 的 结论 "。 数据 ,不 像 其 他 一 般 的 商品 , 它 
的 内 在 价值 不 会 因为 多 次 重复 使 用 而 降低 。 考 虑 到 将 
来 可 能 的 用 处 ,我 们 在 收集 数据 的 时 候 , 应 该 尽 可 能 地 
前 瞻 性 地 收集 更 多 的 数据 。 虽 然 有 些 信 息 跟 当下 的 研 
究 关 系 不 大 ,但 是 由 于 数据 采集 的 边际 成 本 比较 低 , 你 
可 以 随手 收集 可 能 对 将 来 非常 重要 的 数据 。 在 一 项 研 
究 全 球 微生物 分 布 规律 的 生态 学 研究 中 , 正 是 由 于 每 组 
数据 都 采集 了 pH 温度 等 各 个 环境 的 理化 信息 , 才 最 终 
通过 元 分 析 发 现 盐 度 是 影响 微生物 分 布 的 最 重要 的 
子 "。 而 且 , 随 着 数据 存储 成 本 的 急剧 下 降 , 不 用 担心 数 
据 过 多 而 无 法 保存 。 运 用 前 脆性 的 原则 采集 数据 是 大 
数据 时 代 的 一 个 重要 原则 。 比 如 ,每 次 疾病 患者 或 者 健 
康 人 群 来 医院 看 病 或 者 体检 的 时 候 , 我 们 可 以 记录 下 所 
有 方便 可 测 的 生理 ,心理 数据 ,建立 纵向 的 时 间 序 列 数 
据 库 ,为 将 来 提高 疾病 的 诊断 和 预防 技术 提供 大 量 的 数 
据 支 持 。 由 于 DNA 测 序 成 本 的 降低 和 自动 化 机 械 手臂 
在 实验 操作 上 的 使 用 ,我 们 甚至 可 以 同时 低 成 本 地 
收集 大 量 的 口腔 、 业 便 、 皮 肤 等 微生物 样本 ,为 将 来 深入 
研究 微生物 跟 各 种 慢性 疾病 的 发 病 机 制 之 间 的 关系 提 
供 数据 。 


2 杂乱 性 

当 我 们 获取 大 量 数据 的 时 候 ,不 可 避免 地 会 包含 一 
些 不 精确 或 者 含有 误差 的 数据 。 当 数据 量 比较 小 的 时 
候 , 我 们 能 够 ,也 应 该 保证 每 个 数据 的 精确 性 ,因为 在 数 
据 少 的 情况 下 ,任何 误差 会 对 结果 造成 明显 的 影响 。 数 
据 精 确 度 和 信息 量 之 间 ,在 很 大 程度 上 其 实 是 一 个 权衡 
关系 。 随 着 数据 量 的 增长 ,我 们 很 难 去 逐个 检查 验证 每 
个 数据 ,这 将 会 耗费 巨大 的 人 力 成 本 。 虽 然 我 们 可 以 通 
过 算法 自动 寻找 可 能 有 问题 的 数据 ,但 效果 非常 有 限 。 
那么 ,在 以 牺牲 精确 度 为 代价 的 情况 下 ,大 数据 是 不 是 
还 有 意义 呢 ? 答案 是 肯定 的 。 其 中 最 直接 的 一 个 例子 
就 是 谷歌 的 机 器 翻译 。 在 20 世 纪 90 年 代 , 用 来 创建 机 
器 翻译 模型 的 数据 主要 来 自 于 双语 的 官方 文件 ,这 种 语 
料 库 的 质量 是 非常 高 的 ,但 是 机 器 翻译 的 质量 一 般 , 无 
论 如 何 改进 算法 ,效果 都 十 分 有 限 。 直 到 2006 年 ,谷歌 
抓 取 互联 网 上 所 有 的 双语 材料 用 来 建 模 , 虽 然 这 些 语 料 
的 质量 良 劳 不 齐 , 但 是 巨大 的 数据 量 大 大 提高 了 机 器 翻 
译 的 准确 度 ”。 

另外 一 个 例子 ,我 们 实验 室 正在 开展 的 一 个 面向 公 
众 的 大 型 科学 项 目 一 一 American Gut Project。 每 位 参 
与 者 只 要 捐赠 $ 99 ,就 可 以 用 我 们 提供 的 试剂 盒 采集 自 
己 感 兴趣 的 微生物 样本 , 寄 回 给 我 们 测序 分 析 , 然 后 我 
们 再 把 分 析 结 果 以 简单 易 懂 的 方式 返还 给 他 们 。 这 个 
过 程 中 有 很 多 我 们 没 法 控制 的 因素 ,数据 没 法 做 到 完全 
精确 。 比 如 ,样本 在 邮寄 的 过 程 中 有 很 多 微生物 不 可 避 


免 的 进行 繁殖 ,从 而 可 能 改变 原来 的 群落 结构 。 确 实 ， 
我 们 发 现 有 几 个 变形 菌 门 (proteobacteria) 的 细菌 进行 
了 大 量 繁殖 。 再 比如 ,参与 者 在 填写 样本 相关 的 信息 
(通常 称 之 为 meta data) 的 时 候 , 难 免 出 现 描 述 不 准确 其 
至 错误 的 情况 。 虽 然 有 诸多 影响 数据 准确 度 的 因素 存 
在 ,但 我 们 还 是 能 得 出 一 些 在 数据 量 小 的 时 候 没 法 得 出 
的 有 意义 的 结论 (还 未 发 表 )。 之 所 以 如 此 ,是 因为 大 
数据 能 够 给 我 们 描绘 一 副 全 面 的 图 景 ,即使 这 幅 图 景 存 
在 一 些 局 部 误差 ,只 要 这 些 误差 是 随机 的 ,就 不 会 太 影 
响 我 们 对 整体 的 认识 。 

大 数据 的 杂乱 性 的 还 有 男 外 一 层 意思 。 我 们 常常 
把 不 同 来 源 和 不 同类 型 的 几 组 数据 整合 在 一 起 分 析 。 
例如 ,医疗 大 鲜 Permanente 曾经 通过 整合 各 个 医疗 机 
构 的 数据 和 临床 病人 的 电子 病历 ,成 功 降 低 病 人 的 就 诊 
率 ,从 而 减少 了 大 量 医疗 成 本 “"。 但 在 很 多 情况 下 , 几 
组 相关 的 数据 是 不 完全 相对 应 的 ,杂乱 的 。 因 此 ,数据 
整合 需要 对 数据 进行 规范 ,使 之 易于 分 享 合并。 数据 
的 规范 化 不 仅仅 是 指数 据 的 电子 信息 化 和 格式 的 统一 ， 
更 是 指 描述 语言 的 标准 化 。Genomic Standards Con- 
sortium 下 是 出 于 此 目的 而 建立 的 ""。 该 组 织 在 微生物 
组 学 领域 设立 了 MIMARKS 等 标准 "*, 来 促进 微生物 
组 学 数据 的 交换 共享 。 


3 开放 性 

基于 以 上 原因 ,数据 整合 带 来 的 益处 远 远 高 于 单 组 
数据 ,数据 共享 往往 能 创造 共 启 的 局 面 ,对 所 有 的 数据 
分 享 者 都 是 有 利 的 。 因 此 ,数据 的 开放 性 是 大 热 所 趋 。 
近年 来 ,许多 国家 都 意识 到 这 点 ,极力 推动 数据 的 共 
享 。 比 如 ,美国 从 2009 年 开始 要 求 所 有 联邦 机 构 必 须 
公开 它们 收集 的 公众 数据 ,普通 大 众 可 以 在 http:/ 
www.data.gov/ 自由 下 载 并 使 用 包括 农业 金融、 能 源 、 
科研 等 各 个 部 门 在 内 的 、 超 过 138 470 组 的 数据 。 英 国 
甚至 成 立 了 一 个 新 的 研究 所 Open Data Institute 来 鼓励 
数据 的 共享 和 使 用 。 欧 盟 和 其 他 国家 (包括 澳大利亚 、 
巴西 智利 等 ) 也 都 制定 了 相应 法 规 和 策略 , 希 介 在 大 数 
据 时 代 占 有 一 席 之 地 。 中 国 , 作 为 世界 上 人 口 最 多 的 
家 ,在 人 类 健康 方面 ,拥有 着 巨大 的 数据 资源 ;同时 ,中 
国 领 土 面积 广大 ,土地 海洋 ,生物 的 多 样 性 都 是 许多 国 
家 无 法 比拟 的 ,利用 好 这 些 数 据 可 以 极 大 地 促进 科学 技 
术 的 发 展 和 社会 经 济 的 增长 。 


4 隐私 保护 

隐私 权 无 疑 是 每 个 公民 的 基本 权利 。 在 大 数据 时 
代 , 如 何 保护 数据 来 源 人 的 隐私 是 一 个 巨大 的 挑战 。 隐 
私 保护 通常 有 两 驾 马 车 :(1) 个 人 能 够 选择 同意 或 不 同 
意 提供 数据 ;(2) 数 据 的 匿名 化 和 去 标识 化 。 但 针对 于 
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大 数据 ,这 两 种 手段 都 难以 发 挥 作用 。 前 文 提 到 ,数据 
共享 是 有 效 利 用 大 数据 的 必 经 之 路 。 虽 然 数据 的 原始 
采集 机 构 可 以 经 过 个 人 的 授权 同意 ,但 是 当 要 把 数据 分 
享 给 第 三 方 时 ,就 难以 再 回 过 去 一 一 争取 每 个 人 的 授权 
了 。 而 且 , 在 数据 采集 的 时 候 , 谁 是 将 来 的 第 三 方 往往 
是 未 知 的 ,因此 ,无 法 提前 将 第 三 方 加 入 到 授权 条 款 当 
中 。 比 如 ,医院 在 经 过 病人 同意 采集 了 病人 样本 ,多 年 
以 后 医院 想 把 所 有 这 些 样 本 共享 给 另外 一 家 科研 机 构 
或 者 健康 保险 机 构 ,但 是 由 于 样本 量 的 巨大 ,重新 联系 
原来 的 每 个 病人 是 一 件 成 本 巨大 甚至 是 不 可 能 完成 的 
事情 。 尽 管 如 此 ,如 果 我 们 能 够 将 样本 匿名 化 ,也 可 以 
同样 保护 病人 隐私 。 但 是 ,大 数据 是 如 此 地 具有 个 人 
特征 ,即使 完全 地 去 匿名 化 ,你 还 是 可 以 通过 数据 来 找 
到 数据 的 主人 。 比 如 ,Netflix 公 司 曾 公布 过 一 批 用 户 的 
观 影 记录 ,巨额 悬赏 能 改进 其 影片 推荐 系统 的 算法 。 尽 
管 公布 的 数据 中 所 有 用 户 的 信息 都 已 经 仔细 地 去 标识 
化 了 ,但 是 ,根据 用 户 对 不 同 影片 的 喜好 ,通过 对 比 IM- 
DB (the Internet Movie Database) 数 据 库 ,人 研究 人 员 仍 
然 有 很 高 的 概率 来 识别 用 户 。 这 个 问题 在 生物 医学 研 
究 中 更 加 严重 ,因为 每 个 人 的 生物 性 状 更 加 独特 、 可 识 
别 , 健 康 保险 公司 很 容易 把 你 和 你 的 基因 组 对 应 起 来 ， 
通过 分 析 你 基因 组 来 计算 你 的 将 来 的 疾病 风险 ,从 而 不 
公平 地 差别 对 待 每 个 受 保 人 。 不 仅 每 个 人 的 基因 组 是 独 
特 的 ,每 个 人 所 携带 的 微生物 群落 也 是 显著 不 同 的 “， 
加 之 越 来 越 多 的 研究 证 明了 微生物 群落 跟 人 健康 之 间 
的 关系 "25 ,因此 人 体 相 关 的 微生物 组 学 也 同样 面临 着 
隐私 保护 的 问题 。 


5 云 存 储 和 云 计 算 

随 着 数据 量 的 增长 ,在 本 地 存储 和 分 析 数 据 对 计算 
机 硬件 的 要 求 越 来 越 大 。 云 存储 和 云 计算 对 此 提供 了 
切实 可 行 的 解决 方案 。 现 在 国内 外 许多 厂商 都 有 云 服 
务 , 例 如 阿里 巴巴 的 阿里 云 ,亚马逊 的 AWS 等 。 用 户 只 


的 成 立 与 否 。 而 面 对 大 数据 时 ,数据 驱动 的 研究 方式 开 
始 越 来 越 普遍 , 即 不 提出 任何 假说 ,让 数据 来 引导 我 们 
得 出 科学 结论 。 这 在 有 些 研 究 领域 里 特别 重要 。 比 如 ， 
如 果 我 们 要 通过 设计 实验 来 研究 一 个 菌 种 在 群落 中 的 
作用 ,我 们 就 应 该 把 该 菌 种 从 群落 中 剔除 ,再 把 该 群落 
接种 到 无 菌 的 研究 对 象 中 去 ,去 检测 群落 的 变化 ,这 在 
实验 上 是 很 难 做 到 的 。 不 像 遗传 分 析 ,在 研究 一 个 基因 
的 功能 时 ,我 们 可 以 通过 敲 除 该 基因 ,来 观察 生物 性 状 
的 改变 是 否 符合 提出 的 假说 。 在 这 种 情况 下 ,大 数据 就 
可 以 帮助 解答 这 个 问题 一 一 我 们 可 以 记录 下 微生物 组 
在 不 同 环境 下 的 分 布 以 及 它 对 各 种 干预 所 产生 的 变化 ， 
当 这 些 数据 积累 地 越 来 越 多 时 ,我 们 就 能 梳理 出 哪些 细 
菌 在 整个 微 生 态 系 统 中 可 能 具有 什么 样子 的 功能 。 

如 何 从 纷繁 复杂 的 大 数据 中 得 出 有 用 的 结论 呢 ? 
这 就 需要 包括 机 带 学 习 和 数据 挖掘 在 内 的 一 系列 多 重 
变量 分 析 方 法 (multivariate analyses)。 常 见 的 方法 有 
分 类 分 析 (classification) 、 回 归 分 析 (regression) 、 聚 类 
分 析 (clustering) 、 主 成 成 分 分 析 (principal components 
analysis,PCA) 等 。 这 些 方法 都 广泛 应 用 于 生物 医学 研 
究 当 中 WW。 比 如 ,通过 采集 尸体 上 的 微生物 样本 ,我 们 
可 以 根据 微生物 群落 的 演 蔡 建立 回归 分 析 模 型 ,来 
准确 地 预测 尸体 的 死亡 时 间 , 这 将 对 刑侦 提供 重要 的 信 
息 。 再 比如 ,运用 分 类 分 析 ,我们 可 以 在 整个 基因 表 
达 谱 或 者 分 子 谱 当 中 筛选 癌症 的 分 子 标 记 , 从 而 对 癌症 
类 型 做 出 准确 的 诊断 中 ,以 制定 个 性 化 的 治疗 方案 。 对 
这 些 分 析 方 法 感 兴趣 的 读者 可 以 参考 文章 后 面 列 出 来 
的 资源 。 

由 于 数据 量 的 巨大 ,有 些 过 去 适用 于 抽样 数据 的 统 
计 方 法 和 分 析 工 具 缺 乏 可 扩展 性 (scalability) ,难以 满 
足 我 们 大 数据 快速 分 析 的 需求 。 而 Hadoop 中 和 
MapReduce 采用 分 布 式 系统 ,高 效 地 利用 大 型 计算 机 
群 进行 并 行 运算 ,大 大 加 快 了 海量 信息 的 处 理 。 需 要 提 
醒 的 是 ,大 数据 得 出 来 的 结论 ,和 所 有 的 结论 一 样 , 不 可 


需要 购买 相应 的 使 用 时 间 ,不 用 担心 软 硬 件 的 配置 ,就 
可 以 在 云端 服务 器 进行 各 种 大 型 运算 。 另 外 , 云 还 解决 
了 数据 传输 的 问题 。 当 数据 在 云端 服务 器 上 时 ,数据 的 
各 方 使 用 者 就 不 需要 下 载 至 各 自 的 本 地 服务 器 上 进行 
分 析 。 虽 然 有 支持 断 点 续 传 ,快速 传输 技术 (例如 fasp， 
传输 速度 可 达 700~800 Mbps) ,但 下 载 数据 仍然 要 占据 
大 量 的 带宽 。 因 此 ,在 云端 存储 数据 和 进行 分 析 是 更 佳 
的 选择 。 


6 大 数据 的 分 析 

大 数据 给 科学 研究 提供 了 全 新 的 思路 。 传 统 的 研 
究 常 党 假设 驱动 , 即 根据 已 知 的 科学 事实 ,对 所 研究 的 
自然 现象 提出 推测 和 假说 ,再 通过 设计 实验 来 验证 假说 


育 目 相信 ,应 本 着 科学 精神 ,让 实验 和 时 间 来 检验 。 例 
如 ,Google 早 在 2008 年 就 成 立 了 Google Flu Trend 服 
务 ,通过 汇总 搜索 数据 ,统计 各 个 地 方 流感 相关 的 搜索 
关键 词 , 来 预测 流感 疫情 ”。 但 2013 年 发 现 Google 的 
预测 结果 与 美国 疾病 预防 控制 中 心 的 监测 报告 相 比 , 严 
重 高 估 了 流感 发 病 率 ”。 

虽然 随 着 算法 的 改进 ,计算 机 越 来 越 聪明 ,但 是 ,机 
器 学 习 和 人 工 智能 目前 还 是 无 法 和 人 脑 比拟 。Foldit2 
是 一 款 让 玩家 去 预测 和 设计 重 白 结构 的 游戏 ,在 短 短 3 
周 里 ,Foldit 玩家 就 破译 M-PMYV 逆转 录 病 毒 蛋白 酶 的 
晶体 结构 。 这 个 酶 在 艾滋 病毒 复制 和 成 熟 过 程 中 起 着 
关键 的 作用 , 它 晶 体 结构 的 解析 曾 困扰 计算 生物 学 家 十 
年 时 间 , 但 是 缺乏 生化 知识 的 在 线 的 玩家 们 利用 人 脑 的 
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空间 推理 能 力 一 起 合作 ,解决 了 这 个 计算 机 难以 解决 的 
问题 他。 同样 ,ERNA"”" 也 是 试图 通过 玩家 的 参与 来 寻 
找 RNA 分 子 结构 设计 的 规律 。 可 见 ,尽管 大 数据 如 此 
重要 ,但 也 不 是 万 能 的 ,人 类 的 想像 能 力 .推理 能 力 都 有 
着 不 可 忽视 的 作用 。 

最 后 ,需要 补充 的 是 ,传统 的 严谨 的 数据 收集 方法 
有 其 自身 适用 的 地 方 ,大 数据 不 可 能 完全 取代 ,二 者 相 
互 辅助 ,在 不 同 的 场合 发 挥 不 同 的 作用 。 很 多 生物 学 领 
域 ,都 有 这 大 数据 的 用 武之 地 ,等 待 着 我 们 去 发 现 和 挖 
据 。 尤 其 是 随 着 移动 互联 网 的 发 展 ,人 们 可 以 在 智能 手 
机 和 其 他 终端 (例如 智能 血压 仪 ,血糖 测试 仪 等 ) 上 对 自 
己 的 身体 状况 自 测 自 检 ,进一步 降低 大 数据 的 成 本 。 。 
些 健康 监测 数据 将 帮助 我 们 在 未 来 给 每 个 人 提供 个 
化 的 靶 标 治疗 。 因 此 ,只 要 我 们 培养 好 自 
脑 和 嗅觉 ,学 会 让 数据 说 话 , 大 数据 在 生物 医学 领域 的 
前 景 将 非常 广阔 。 
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